Определение 10.1.1: Статистическая связь
Две переменные $X$ и $Y$ считаются связанными если существует любое изменение условного распределения $Y$, при $X = x$, при изменении $x$. Напротив, состояние «отсутствия связи» математически эквивалентно независимости $X$ и $Y$.
Переменные $X$ и $Y$ не связаны тогда и только тогда, когда $f(y|x) = f(y)$ для всех значений $x$. Это означает, что совместная функция относительной частоты может быть разложена как:
$$f(x, y) = f(x)f(y)$$
Следовательно, проверка на наличие связи — это в первую очередь проверка на независимость.
Механизмы изменения
Связь определяется любым смещением условной плотности (как показано на рисунке 10.1.1). К ним относятся:
- Сдвиг среднего: Ожидаемое значение $E(Y|X)$ меняется (наиболее распространённый фокус).
- Сдвиг дисперсии: Разброс или неопределённость $Y$ зависит от $X$ (гетероскедастичность).
- Изменение формы: Общее распределение трансформируется (например, от симметричного к асимметричному).
Установление причинно-следственной связи через дизайн
Статистическая связь не означает причинно-следственную связь. Чтобы утверждать, что $X$ вызывает $Y$, необходимо учитывать факторы смешивания через дизайн эксперимента:
- Контрольные обработки: Предоставляет базовую точку сравнения.
- Эффект плацебо: Снижение воспринимаемого улучшения за счёт неактивных обработок.
- Замаскированность: Использование слепых экспериментов (получатели не знают) и двухслепых экспериментов (получатели и исследователи не знают), чтобы устранить предвзятость.
- Блокирование: Как показано в Примере 10.1.7, мы используем блокирующие переменные ($W$, например, плодородие почвы), чтобы гарантировать, что связь между типом пшеницы ($X$) и урожайностью ($Y$) не искажается изначальными условиями.